智能论文笔记

Deepfakes Generation and Detection: State-of-the-art, open challenges, countermeasures, and way forward

Momina Masood , Marriam Nawaz , Khalid Mahmood Malik , Ali Javed , Aun Irtaza

分类：机器学习

2021-02-25

方便地访问社交媒体上的视听内容，结合了现代工具的可用性，如Tensorflow或Cheras，开源训练型和经济的计算基础设施，以及深度学习（DL）方法的快速演变，特别是生成的对抗性网络（GAN）使得可以生成DeepFakes来传播欺骗，复仇色情，金融欺诈，恶作剧，并扰乱政府运作。现有调查主要集中在检测到DeepFake图像和视频。本文提供了对基于工具和机器学习（ML）基于DeepFake发电的方法的全面审查和详细分析，以及用于检测音频和视觉泡泡的这种操纵的方法。对于每类DeepFake，我们讨论与操纵方法，当前公共数据集和绩效评估的关键标准相关的信息以及其结果。此外，我们还讨论了开放的挑战，并列举了未来的指导，以引导未来的研究人员对需要考虑的问题，以改善深蓝生成和检测的域。预计这项工作有望帮助读者了解DeepFakes的创作和检测机制，以及他们当前的限制和未来方向。

translated by 谷歌翻译

Hand-breathe: Non-Contact Monitoring of Breathing Abnormalities from Hand Palm

Kawish Pervez , Waqas Aman , M. Mahboob Ur Rahman , M. Wasim Nawaz , Qammer H. Abbasi

分类：机器学习

2022-12-12

In post-covid19 world, radio frequency (RF)-based non-contact methods, e.g., software-defined radios (SDR)-based methods have emerged as promising candidates for intelligent remote sensing of human vitals, and could help in containment of contagious viruses like covid19. To this end, this work utilizes the universal software radio peripherals (USRP)-based SDRs along with classical machine learning (ML) methods to design a non-contact method to monitor different breathing abnormalities. Under our proposed method, a subject rests his/her hand on a table in between the transmit and receive antennas, while an orthogonal frequency division multiplexing (OFDM) signal passes through the hand. Subsequently, the receiver extracts the channel frequency response (basically, fine-grained wireless channel state information), and feeds it to various ML algorithms which eventually classify between different breathing abnormalities. Among all classifiers, linear SVM classifier resulted in a maximum accuracy of 88.1\%. To train the ML classifiers in a supervised manner, data was collected by doing real-time experiments on 4 subjects in a lab environment. For label generation purpose, the breathing of the subjects was classified into three classes: normal, fast, and slow breathing. Furthermore, in addition to our proposed method (where only a hand is exposed to RF signals), we also implemented and tested the state-of-the-art method (where full chest is exposed to RF radiation). The performance comparison of the two methods reveals a trade-off, i.e., the accuracy of our proposed method is slightly inferior but our method results in minimal body exposure to RF radiation, compared to the benchmark method.

translated by 谷歌翻译

Learning Branched Fusion and Orthogonal Projection for Face-Voice Association

Muhammad Saad Saeed , Shah Nawaz , Muhammad Haris Khan , Sajid Javed , Muhammad Haroon Yousaf , Alessio Del Bue

分类：计算机视觉

2022-08-22

近年来，人们对建立面孔和名人声音之间的关联的兴趣越来越大，从而利用YouTube的视听信息。先前的工作采用公制学习方法来学习适合关联匹配和验证任务的嵌入式空间。尽管显示出一些进展，但由于依赖距离依赖的边缘参数，运行时训练的复杂性差以及对精心制作的负面采矿程序的依赖，这种制剂是限制性的。在这项工作中，我们假设一个丰富的表示形式以及有效但有效的监督对于实现面部voice关联任务的歧视性关节嵌入空间很重要。为此，我们提出了一种轻巧的插件机制，该机制利用这两种方式中的互补线索以通过正交性约束来根据其身份标签形成丰富的融合杂物并将其簇形成。我们将我们提出的机制作为融合和正交投影（FOP）创造，并在两个流网络中实例化。在Voxceleb1和Mav-Celeb数据集上评估了总体结果框架，其中包括许多任务，包括跨模式验证和匹配。结果表明，我们的方法对当前的最新方法有利，而我们提出的监督表述比当代方法所采用的方法更有效。此外，我们还利用跨模式验证和匹配任务来分析多种语言对面部声音协会的影响。代码可用：\ url {https://github.com/msaadsaeed/fop}

translated by 谷歌翻译

Semantically Grounded Visual Embeddings for Zero-Shot Learning

Shah Nawaz , Jacopo Cavazza , Alessio Del Bue

分类：计算机视觉

2022-01-03

零拍学习方法依赖于固定的视觉和语义嵌入，从独立视觉和语言模型中提取，都是预先培训的其他大型任务。这是当前零拍摄学习框架的弱点，因为这种不相交的嵌入不能充分将可视化和文本信息与其共享语义内容充分相关联。因此，我们建议通过在代理任务上计算带有双流网络的联合图像和文本模型来学习语义接地和丰富的视觉信息。为了改善由属性提供的图像和文本表示之间的这种对齐，我们利用辅助标题提供接地的语义信息。我们的方法，在若干基准数据集中评估了零射击学习的关节嵌入，提高了标准（APY $ + 1.6 $ \％的现有最先进方法的性能（$ + 2.6 \％$在FLO）上）和AWA $ 2 $ + 2.1 \％$ 2 $ 2 $ 2美元，幼崽+ 2.2 \％$ 2。幼崽）零射击识别。

translated by 谷歌翻译

Fusion and Orthogonal Projection for Improved Face-Voice Association

Muhammad Saad Saeed , Muhammad Haris Khan , Shah Nawaz , Muhammad Haroon Yousaf , Alessio Del Bue

分类：计算机视觉

2021-12-20

我们研究了脸部和声音之间学习协会的问题，这是最近对计算机视觉界的兴趣。现有作品采用成对或三重态损耗配方，以学习适用于相关匹配和验证任务的嵌入空间。尽管展示了一些进展，但这种损失配方由于依赖差距利润率参数，运行时训练复杂性差，以及依赖于仔细制作的负挖掘程序而受到限制。在这项工作中，我们假设具有有效且有效的监督耦合的富集的特征表示是实现改进的面部语音关联的鉴别性关节嵌入空间。为此，我们提出了一种轻量级，即插即用机制，可利用两种方式的互补线程来形成丰富的融合嵌入并通过正交限制基于其身份标签进行群集。我们将我们提出的机制硬币作为融合和正交投影（FOP），并在两条流管道中实例化。在具有多种任务的大规模VOXECEB数据集上评估总体产生的框架，包括跨模型验证和匹配。结果表明，我们的方法对目前的最先进的方法进行了有利，我们拟议的监督制定比当代方法所采用的制定更有效和效率。

translated by 谷歌翻译

Towards Low-Cost and Efficient Malaria Detection

Waqas Sultani1 , Wajahat Nawaz , Syed Javed , Muhammad Sohail Danish , Asma Saadia , Mohsen Ali

分类：计算机视觉

2021-11-26

疟疾，一种致命但可治愈的疾病每年索赔数十万人生命。早期和正确的诊断对于避免健康复杂性至关重要，但这取决于昂贵的显微镜和培训专家分析血液涂抹幻灯片的可用性。基于深度学习的方法可能不仅可以降低专家的负担，而且还提高了低成本显微镜的诊断准确性。但是，由于没有合理的大小数据集，这是阻碍的。最具挑战性的方面之一是专家不愿意在低成本显微镜下以低放大率注释数据集。我们提出了一种数据集，以进一步研究低放大率低成本显微镜的疟疾显微镜。我们的大型数据集由来自几种疟疾感染患者的血液涂抹幻灯片的图像组成，通过显微镜在两种不同的成本谱和多个放大倍数中收集。用于在高放大率下通过高成本显微镜收集的图像的定位和寿命分类任务的疟原虫细胞。我们设计了一种机制，将这些注释从高倍率从高倍率转移到低成本显微镜，多倍放大。多个对象探测器和域适配方法作为基准。此外，引入了部分监督的域适配方法以使对象检测器适应从低成本显微镜收集的图像上的工作。该数据集将在发布后公开可用。

translated by 谷歌翻译